Local LLM
ローカルLLMは流れが速く、ウォッチしていないと状況の把握が困難です。
ChatGPTが出始めの時期、ローカルLLMではMetaのLLaMAや、派生のAlpacaが研究されていました。当時、私も状況がさっぱり分かりませんでした。 ここ数か月はある程度追っていたので、流れをざっくりまとめてみます。
LLMの規模を表す〇〇Bは10億単位です。8bitで量子化すれば1Bは約1GBに相当します。
量子化ビット数を下げればデータは小さくなりますが、性能は劣化します。ギリギリ実用になるのが4bitだと言われています。
GPUで動かすには、LLMのサイズ以上のVRAMが必要です。CPUでも動きますが遅いです。
続く~~